~今天要分享的是「關聯式分析」~
說到關聯式分析,相信大家一定聽過購物籃分析的尿布和啤酒,這是在一家超市觀察到的現象:許多人在買尿布的同時會購買啤酒。
這兩個看似不相關的商品,實際上卻存在著某種關聯,這是我們所想像不到的,所以透過關聯式分析,商家可以參考分析結果以改進商品的擺放位置與辦理促銷活動等策略,來提升客戶體驗。
關聯式分析屬於資料分析的階段,目的是要找到資料間的規則,通常會使用兩個指標來衡量資料之間的關聯度,分別為:
程式碼如下:
#計算支持度
from mlxtend.frequent_patterns import apriori
apriori(df, min_support=n) #n為最小支持度的閾值,程式僅會篩選出大於等於n的支持度
#計算信賴度
from mlxtend.frequent_patterns import association_rules
association_rules(df, metric='confidence', min_threshold=n) #n為最小信賴度的閾值,程式僅會篩選出大於等於n的信賴度
在撰寫關聯式分析的程式碼時,如何設定合適的最小支持度閾值及最小信賴度閾值是一個需要思考的問題,因為閾值設定太低的話可能會出現無用的規則,而閾值設定太高的話可能會忽略一些有價值的規則。